TensorFlow从0到1 - 5 - TensorFlow轻松搞定线性回归

TensorFlow从0到1系列回顾

上一篇第一个机器学习问题其实是一个线性回归问题（Linear Regression），呈现了用数据来训练模型的具体方式。本篇从平行世界返回，利用TensorFlow，重新解决一遍该问题。

TensorFlow的API有低级和高级之分。

底层的API基于TensorFlow内核，它主要用于研究或需要对模型进行完全控制的场合。如果你想使用TF来辅助实现某个特定算法、呈现和控制算法的每个细节，那么就该使用低级的API。

高级API基于TensorFlow内核构建，屏蔽了繁杂的细节，适合大多数场景下使用。如果你有一个想法要验证并快速获得结果，那么TF的高级API就是高效的构建工具。

本篇使用TF的低级API来呈现线性回归的每一个步骤。

线性回归

第一个机器学习的TF实现

TensorFlow的计算分为两个阶段：

构建计算图；
执行计算图。

先给出“平行世界”版本，(a, b)初始值为(-1, 50)，第二次尝试(-1, 40)。

import tensorflow as tf

# model parameters
a = tf.Variable([-1.], tf.float32)
b = tf.Variable([50.], tf.float32)

# model input and output
x = tf.placeholder(tf.float32)
linear_model = a * x + b
y = tf.placeholder(tf.float32)

# loss
loss = tf.reduce_sum(tf.square(linear_model - y)) / 8

# training data
x_train = [22, 25, 28, 30]
y_train = [18, 15, 12, 10]

# training loop
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)  # 1st

print("loss: %s" % (sess.run(loss, {x: x_train, y: y_train})))

# 2nd
fixa = tf.assign(a, [-1.])
fixb = tf.assign(b, [40.])
sess.run([fixa, fixb])

print("loss: %s" % (sess.run(loss, {x: x_train, y: y_train})))

程序输出

loss: 50.0
loss: 0.0

下载 tf_5_manual.py

上面的python代码利用了在2 TensorFlow内核基础介绍的基本API实现了“第一个机器学习问题”。代码通过一步步构造计算图，最后得到了loss节点。loss即4 第一个机器学习问题中定义过的损失函数，这里再次给出其定义：

B-P-F-1 损失函数

构建好计算图，接下来开始执行。执行loss节点（同时提供基于tf.placeholder的训练数据），得到loss的值为50。然后开始第二次训练，修改基于tf.Variable的a和b的值，再次执行loss节点，loss的值为0，降到了最低。此时的a和b就是最佳的模型参数了。

还记得那个神秘力量吗？到底是什么让机器在第二次训练中将模型参数(a, b)的值从初始的随机值(-1, 50)迁移到最优的(-1, 40)？如果不靠运气的话，机器如何能自动的找到最优解呢？

梯度下降算法

在此之前，或许你已经想到了随机穷举的办法，因为机器不怕累。这的确是个办法，但面临的挑战也不可接受：不可控。因为即便是只有2个参数的模型训练，其枚举域也是无限大的，这和靠运气没有分别。运气差的话，等个几百年也说不定。

不绕圈子，那个神秘力量就是：梯度下降算法（gradient descent）。虽然它也是让机器一小步一小步的去尝试不同的(a, b)的组合，但是它能指导每次前进的方向，使得每尝试一组新的值，loss就能变小一点点，直到趋于稳定。

而这一切TF已经把它封装好了。本篇先把它当个黑盒子使用。

tf.train API

import tensorflow as tf

# model parameters
a = tf.Variable([-1.], tf.float32)
b = tf.Variable([50.], tf.float32)

# model input and output
x = tf.placeholder(tf.float32)
linear_model = a * x + b
y = tf.placeholder(tf.float32)

# loss
loss = tf.reduce_sum(tf.square(linear_model - y)) / 8   # sum of the squares

# training data
x_train = [22, 25, 28, 30]
y_train = [18, 15, 12, 10]

# optimizer
optimizer = tf.train.GradientDescentOptimizer(0.01)
train = optimizer.minimize(loss)

# training loop
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for i in range(1000):
    sess.run(train, {x: x_train, y: y_train})

# evaluate training accuracy
curr_a, curr_b, curr_loss = sess.run([a, b, loss], {x: x_train, y: y_train})
print("a: %s b: %s loss: %s" % (curr_a, curr_b, curr_loss))

代码几乎和TensorFlow Get Started官方代码一致，主要区别在于训练数据不同，以及初始值不同。

TF官方的训练数据是x_train = [1, 2, 3, 4]，y_train = [0, -1, -2, -3]，而我们的训练数据是“平行世界”的观察记录x_train = [22, 25, 28, 30]，y_train = [18, 15, 12, 10]。
TF官方的(a, b)初始值是(.3, -.3), 我们的是(-1., 50.)。
或许你还发现在官方版本的loss函数末尾没有/ 8，是因为我使用均方差的缘故，8由4x2得到（4个训练数据）。

重点说下tf.train API。tf.train.GradientDescentOptimizer即封装了梯度下降算法。梯度下降在数学上属于最优化领域，从其名字Optimizater也可体现出。其参数就是“学习率”（learning rate），先记住这个名词，暂不展开，其基本的效用是决定待调整参数的调整幅度。学习率越大，调整幅度越大，学习的越快。反之亦然。可也并不是越大越好，是相对来说的。先取0.01。

另一个需要输入给梯度下降算法的就是loss，它是求最优化解的主体，通过optimizer.minimize(loss)传入，并返回train节点。接下来在循环中执行train节点即可，循环的次数，即训练的步数。

执行计算图，程序输出：

a: [ nan] b: [-inf] loss: nan

这个结果令人崩溃，仅仅换了下TF官方get started中例子中模型的训练数据和初始值，它就不工作了。

先来看看问题在哪。一个调试的小技巧就是打印每次训练的情况，并调整loop的次数。

for i in range(49):
    sess.run(train, {x: x_train, y: y_train})
    curr_a, curr_b, curr_loss = sess.run([a, b, loss], {x: x_train, y: y_train})
    print("a: %s b: %s loss: %s" % (curr_a, curr_b, curr_loss))

程序输出：

overflow

TF实际是工作的，并没有撂挑子。只是它训练时每次调整(a, b)都幅度很大，接下来又矫枉过正且幅度越来越大，导致最终承载a和b的tf.float32溢出而产生了nan。这不是TF的一个bug，而是算法本身、训练数据、学习率、训练次数共同导致的（它们有个共同的名字：超参数。）。可见，训练是一门艺术。

直觉上，初始值或许有优劣之分，或许是离最优值越近的初始值越容易找到。可是训练数据则应该是无差别的吧？实则不然。但是现在我还不打算把它解释清楚，等后面分析完梯度下降算法后再回来看这个问题。

遇到该问题的也不再少数，Stack Overflow上已经很好的回答了。我们先通过调整学习率和训练次数来得到一个完美的Ending。

把学习率从0.01调制0.0028，然后将训练次数从1000调整至70000。

程序输出：

a: [-1.02855277] b: [ 40.75948715] loss: 0.00379487

最终代码如下：

import tensorflow as tf

# model parameters
a = tf.Variable([-1.], tf.float32)
b = tf.Variable([50.], tf.float32)

# model input and output
x = tf.placeholder(tf.float32)
linear_model = a * x + b
y = tf.placeholder(tf.float32)

# loss
loss = tf.reduce_sum(tf.square(linear_model - y)) / 8   # sum of the squares

# training data
x_train = [22, 25, 28, 30]
y_train = [18, 15, 12, 10]

# optimizer
optimizer = tf.train.GradientDescentOptimizer(0.0028)
train = optimizer.minimize(loss)

# training loop
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for i in range(70000):
    sess.run(train, {x: x_train, y: y_train})

# evaluate training accuracy
curr_a, curr_b, curr_loss = sess.run([a, b, loss], {x: x_train, y: y_train})
print("a: %s b: %s loss: %s" % (curr_a, curr_b, curr_loss))

下载 tf_5_tf.train.py

TensorBoard

TF的另一个强大之处就是可视化算法的TensorBoard，把构造的计算图显示出来。图中显示，每一个基本运算都被独立成了一个节点。除了图中我标注的Rank节点、range节点，start节点、delta节点外，其他节点都是由所写代码构建出来的。

TensorBoard

词汇表

derivative；导数；
estimator：估计；
gradient descent：梯度下降；
inference：推理；
linear regression：线性回归；
loss function：损失函数；
magnitude：量；
optimal：最优的；
optimizers：优化器；

上一篇 4 第一个机器学习问题
 下一篇 6 解锁梯度下降算法

共享协议：署名-非商业性使用-禁止演绎（CC BY-NC-ND 3.0 CN）
转载请注明：作者黑猿大叔（简书）

最后编辑于：2017.12.08 03:21:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271

TensorFlow从0到1 - 5 - TensorFlow轻松搞定线性回归

第一个机器学习的TF实现

梯度下降算法

tf.train API

TensorBoard

词汇表

推荐阅读更多精彩内容